查看原文
其他

NGS如何从科技殿堂飞入寻常百姓家:15年技术发展脉络

July 基因慧 2022-10-30

数字生命健康产业创新服务

基因慧



站在2021年当下,NGS技术已投入使用十余年,从科技殿堂拾阶而下,应用到临床和社区抗疫一线,回顾底层技术发展脉络,温故知新。短读长、长读长各有哪些优势?基础原理是什么?主要厂家有哪些?大阪大学微生物病研究所感染症国际研究中心特聘副教授中村昇太(Nakamura Shota)在《生物工学会志》期刊上发文阐述了相关问题,本文编译原稿如下。

编辑 | July 审核 | Barney

关键词 | NGS 技术综述


【注】本文是作者于2020年执笔,发表于《生物工学会志》2021年5月25日,旨在记录当下NGS现状;以下内容编译原文,略有删减,仅做科普和研究参考)

插图(来源/网络授权)



自2005年下一代测序技术(Next Generation Sequencing,NGS)问世以来,不断演变出各种类型,兴衰交替。


例如,来自454 Life Sciences公司的焦磷酸测序法,是世界上首个进入市场的下一代测序技术,但如今公司和技术都已鲜有身影。此外,还有一些技术只被部分机构引进和使用,而有些技术大肆宣称着来年发布但最终未能问世,这样的情况不在少数。


测序领域出现了如此多的技术消亡算是十分罕见。而能够在这场技术竞争中胜出的技术,如今已成为生命科学不可或缺的工具之一,频繁出现在知名的学术期刊中。


在名称方面,目前普遍认为“下一代测序技术”这一术语已然不合适,也有称该技术为大规模平行测序技术(Massively-Parallel Sequencing,MPS)或高通量测序技术(High-Throughput Sequencing,HTS),本文仍采用NGS的说法,是希望将它作为改变基因某个时代的象征符号来使用,我们知道,在NGS技术出现后,组学领域的测序方法发生了巨大革新。




短读长测序技术发展

454焦磷酸测序技术是初代的NGS技术,以454 Genome Sequencer 20 (GS20)这一型号测序仪上市,序列读长平均为100bp(bp:碱基长度),序列数据量约为50Mb(Mb:100万碱基)。


其后,Roche收购了454 Life Sciences继续进行开发工作,但在2016年宣布退出市场。大阪大学微生物病研究所的附属机构遗传信息实验中心首次引进的NGS仪器是就是桌面型小型仪器454GSJr。该仪器于2010年经引进,距其退出市场仅短短6年。


2006年左右,GenomeAnalyzer (GA)问世,该机型采用了由Solexa公司开发的Sequence-By-Synthesis (SBS)法,该技术首次实现了Gb规模的数据量。Solexa后被Illumina所收购,GA通过HiSeq系列得以传承下来。

另外,善用桑格法的Applied Biosystems(ABI)公司也研发出了Sequence By Oligo Ligation and Detection(SOLiD)技术,当时Roche、Illumina、ABI三巨头之间展开了激烈的研发竞争。而后,ABI成为了Life Technologies公司的一部分,投入使用了Ion PGM和Ion Proton 等新型半导体测序技术。


经过几番激烈的技术竞争,目前Illumina公司推出的SBS方法最为广泛使用。上述两种技术的解读序列长度都比现有的桑格测序法短,因此也被称作短读长测序技术。以桑格测序法为第一代,这些短读长测序技术被称作第二代测序技术。


第二代序列通过在微观规模空间内进行PCR反应来放大1分子的DNA,基于大规模平行的反应产生巨大的数据量,因此被称作大规模平行测序技术。这种大规模平行性逐年提高。Illumina最新机型NovaSeq6000实现了Tb级别的数据量。在这15年间产生了10的6次方的巨大变化。


当454焦磷酸测序技术问世并随之推出其小型机454GSJr时,有评价称可以通过该项技术实现基因解读的平民化。也就是说,过去只有部分大型机器才能完成的基因组解析,如今一般的研究室也可以完成了。


相比而言,NovaSeq进行人类全外显子组分析时,一次测序运行可分析200个样本,对于用途广泛的RNA-Seq则可分析400个样本,仅用两天左右的时间就能输出数据,这对于单个研究室的需要来看已然不可能,以部局、大学为单位也十分困难。为此,遗传信息实验中心正在广泛招募国内外用户来推进机器的共同使用。最近,不仅是学术机构,普通企业也愿接受邀请来促进产学合作,但目前仍是为满足一台NovaSeq的需求而精疲力尽的状况。


另外,Broad Institute、Sanger Institute、BGI等大型分析中心拥有达到了数十PB规模存储系统的大型计算机设备,并使用多台NovaSeq,每天都能生产出大组学数据。基因组解析再次复兴时代,被解析的样本数也计划达到数十万规模。事实上,计划在荷兰进行的一项名为lifelines的项目中,预计通过宏基因组鸟枪法对10万人的肠道细菌进行大规模群体研究分析。在论文中已经成千成万关于“Population-based”的研究,可以预见到今后基因研究数据将愈发大型化。希望在日本也建立起能够与世界大型分析中心抗衡的设施。




长读长测序技术的发展

相较于此前所阐述的短读长测序技术,2010年左右,Pacific Biosciences公司开发的Single Molecule Real Time Sequencing(SMRT)技术在解读序列长度上实现了飞跃性的延伸进步。从该技术问世之初,就因声称可以超越桑格测序法的读长达到数kb而震惊全球。


2013年左右,PacBio RSII经发布,实质上的广泛利用就是从此时开始的。该技术基于实时监测1分子聚合酶的延伸反应的原理,由于与第二代微型PCR为基础的原理具有革新性的不同,因此也被称作是第三代测序技术。


当前SMRT技术的最新机型Sequel II的性能具有显著的提高,每SMRT1细胞单位为150Gb,平均读长分布约为50kb。上市当时该机型在解读序列的准确性较低,被视作一大问题。通过使用数次重复解读环状化DNA库的Circular Consensus Sequencing(CCS)的方法后,一个分子由来可达99%以上准确度的高精度读长(HiFi读长)得以实现,通过由数个Subreads序列(CLR)形成共有序列的方法,据说可以达到99.999%以上的准确度。 


随着SMRT技术的出现,de novo assembly(无参照序列的基因组解析)领域最先产生了革新性变化。虽然随着第二代测序技术的发展各种基因解析方面取得了一定进展,但即便是微小的微生物基因组,也不可能完全获得长基因组序列。因为短读长的数百个碱基长度无法完全确定基因组中多次重复出现的核糖体排列等位置关系。通过SMRT技术长读长测序才得超越核糖体排列全长、并根据核糖体两端的序列信息确定绝对位置(图1,参考文献1)。



图1:利用第二代和第三代测序技术对副溶血弧菌肠炎基因组进行基因组分析比较。从内侧开始,是通过454焦磷酸测序、Ion PGM、Illumina、PacBio各项技术得出的重叠群序列在参考基因组上的结果。环状的缺口是无法解读的地方。缺口与从外侧往里第4个所示的rRNA的位置一致。根据PacBio的分析结果,一条重叠群变成了染色体(来源/生物工学会志)




另外,Oxford Nanopore Technologies(ONT)公司研发的Nanopore测序技术也属于长读长测序技术。该技术通过DNA长链分子穿过由细菌毒素产生的膜蛋白质的细孔结构(Nanopore)时的离子电流的变化来解析核酸的种类。


桑格法和NGS技术从来都是依赖于聚合酶的延伸反应,而通过该技术得以不依赖聚合酶就能获得碱基序列信息,因此可以将其称作是第四代技术。它的最长读长超过4 Mb,似乎只要DNA质量足够好,无论多大都能进行解析。因此,如何制备长DNA分子这一有关DNA提取的问题就变得至关重要。


这项技术的一大特点是设备的小型化。最初发布的MinION只需手掌大小的尺寸就能进行细菌基因组解析,因此全世界的研究人员可以将其携带外出,随之就是否可将设备携带至原始森林、山中等极端困难的场所进行测序而展开了激烈角逐。现在已经发展到可以携带至宇宙空间站。


如今,不仅是MinION,大型机器PromethION和逐步小型化的Flongle等新设备不断推出。如上所述,ONT公司的研发能力十分惊人,Basecaller(变换序列的软件)每隔几个月就进行更新,解析精度也实现了日新月异的改善。现在的MinION输出的原始数据的速度可达到每小时约20GB。换算成每分钟约为330MB /min,与4K视频(350Mb /min))的信息量相当。虽然外观小巧,但处理其输出的大数据还需大型计算机才行。 


笔者希望利用这种体积小且解析速度快的优点,将其应用于病原体的当场识别。这种小型装置也使得设置在医院的检查室成为可能。但是,由于配备大型计算机比较困难,所以需将解读后的序列信息发送到远距离的大型计算机,由该计算机进行高级分析,然后将结果反馈至用户终端(图2)。实际上,有关通过云计算识别病原体的应用,以非结核性分枝杆菌病(NTM)为例开始实验,在医院的检查室里10分钟的测序时间中实时同步进行碱基序列解析,便可以甄别菌种(参考文献2)。



图2:开发中的非结核性分枝杆菌病(NTM)的迅速当场识别法。从检查室培养的分岐杆菌中提取DNA,在检查室实施Nanopore测序,通过云端实时分析(来源/生物工学会志)




新一代测序技术

近年来,华大集团旗下的子公司华大智造所开发的DNBSEQ测序技术发展迅猛。这项技术原是由于2006年成立的美国Complete Genomics公司所开发。华大集团于2013年收购了该公司,此后结合自身技术逐渐发展壮大。


其原理属于第二代测序技术,通过将环状化的1分子DNA模板放大到被称作“DNA纳米球 (DNB)”的球状的DNA高分子中进行解析。


目前,日本已经引进了多台华大智造MGISEQ-2000RS基因测序仪。值得一提的是,该机器拥有Illumina公司尚未实现的技术,可实现以往以300bp为极限的单端400bp序列的测序模式。此外,华大智造还推出了基因测序仪DNBSEQ-T7,在长期以来Illumina公司独占鳌头的短读长业界,华大智造俨然具有游戏颠覆者的趋势。


最近华大智造还开发了名为CoolMPS的新型核酸可视化技术并就其发表了论文(参考文献3)。该技术通过能够识别天然核酸的核酸特异性抗体来解析核酸的种类,因此具有在聚合酶的延伸反应中不易产生错误的特点。该配套元件也已经发布,通过CoolMPS所获的数据也正被广泛使用中。华大智造在今后还预计推出单细胞分析用的小型设备以及更加先进的产品,值得持续关注。




展望未来



图3:现有主力机种,从左至右分别为NovaSeq6000,Flongle,MinION,PromethION,MGISEQ-2000,DNBSEQ-T7,PacBio-Sequel II(来源/生物工学会志)。



上述内容介绍了下一代测序技术的历史以及现有主力机型(图3)的原理和性能。


NGS所具备能力的主要特征在于产出的数据量及能够解析的读长,其中NovaSeq和T7在数据量方面表现突出;而在读长方面,Nanopore则具有根据其制备的长链DNA进一步延长读长的潜力。换而言之,它们都已达到了最高性能,至于今后的目标性能,则是精度和数据量达到NovaSeq水平,以及与Nanopore水平相当的长读长的小型设备。


当这样的设备出现时,我们还能够熟练使用吗?目前,新技术的开发仍在继续,采用固体材料的细孔结构而非生物聚合物的第五代Nanopore测序技术正在诞生(参考文献4和5)。而今后对NGS输出的信息进行分析的能力,以及支撑其分析的计算机基础将变得十分重要。



参考资料:

1) Miyamoto, M. et al.: BMC Genomics, 15, 699 (2014). 

2) Matsumoto, Y. et al.: Emerg. Microbes Infect., 8, 1043 (2019). 

3) Hahn, O. et al.: Nucleic Acids Res., 49, e11 (2021). 

4) Di Ventra, M. and Taniguchi, M.: Nat. Nanotechnol., 11, 117 (2016). 5) Goto, Y. et al.: J. Hum. Genet., 65, 69 (2020).



《肿瘤基因及分子检测蓝皮书》(详情)

中国抗癌协会肿瘤标志专委会指导 x 基因慧发起

复旦大学附属中山医院院长樊嘉院士作序

欢迎临床及产业机构合作联合发布

(赛默飞/华大基因/泛生子/金域医学/桐树基因等确认合作)





扩展阅读

百年足迹,光荣梦想:人类基因组草图完成21周年

看见生命科技的未来 | 基因慧专访华大智造CEO牟峰

《肿瘤基因及分子检测蓝皮书》启动中



【声明】为了服务基因及数字生命健康产业发展、科技推广及政产学研用连接,基因慧秉持专业、赋能、中立的理念收集、分析、发布信息或见解。但由于时效性及行业特殊性,所刊登内容仅供研究参考,不作为决策依据;本文相关信息不代表基因慧的观点;基因慧平台刊登的原创内容的知识产权为“基因慧”商标拥有者及相关权利人所有;欢迎转载,转载请申请并注明来源。欢迎个人及机构投稿及合作。




 关于我们 


基因慧是一家数字生命健康产业创新服务平台,专注提供产业咨询及市场推广服务。创始团队深耕行业十余年,秉持“使连接产生价值·用数据看见未来”的理念,创建了产业信息数字化平台YourMap®及内容平台,联合政策、临床、科研及产业机构连续四年发布行业蓝皮书、多项行业共识及团体标准,与90%知名基因企业建立了合作,服务生命科技创新创业。


☆ 国发改《战略性新兴产业发展展望》白皮书执笔

☆ 参与组织机构发布多项行业共识团体标准

 中国遗传学会生物产业促进委员会委员

☆ 建立产业业数字化平台优脉通YourMap®

☆ 中国抗癌协会肿瘤标志专业委员会战略合作单位

☆ 发布数十份基因及数字生命健康产业行研报告

☆ 组织基因检测联盟(筹)首届第二届会议

☆ 主办数字健康私董会大湾区生命健康创新论坛

☆ 广东省精准医学应用学会政策研究应用分会常委

☆ 受邀为华西Illumina华大上海交大等作报告




▼  点击“阅读原文”,阅读原文



使连接产生价值用数据看见未来

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存